Dữ liệu không cân bằng là gì? Nghiên cứu khoa học liên quan

Dữ liệu không cân bằng là tập dữ liệu mà phân bố mẫu giữa các lớp không đồng đều, trong đó một lớp chiếm đa số còn lớp khác rất ít mẫu bài toán phân loại. Khái niệm này nhấn mạnh rằng sự mất cân bằng phản ánh bản chất dữ liệu và gây thiên lệch học máy nếu không được nhận diện và xử lý phù hợp đúng cách.

Khái niệm dữ liệu không cân bằng

Dữ liệu không cân bằng là tập dữ liệu trong đó phân bố số lượng mẫu giữa các lớp mục tiêu không đồng đều, thường thể hiện bằng việc một lớp chiếm tỷ lệ áp đảo so với các lớp còn lại. Trong bối cảnh học máy, hiện tượng này xuất hiện phổ biến ở các bài toán phân loại, nơi mục tiêu là dự đoán nhãn rời rạc dựa trên dữ liệu quan sát.

Về mặt hình thức, dữ liệu không cân bằng không có một ngưỡng định nghĩa cứng, mà được xác định dựa trên mức độ chênh lệch giữa các lớp. Chẳng hạn, một tập dữ liệu có tỷ lệ 90% thuộc lớp A và 10% thuộc lớp B đã được xem là không cân bằng trong nhiều bối cảnh ứng dụng. Khi tỷ lệ này tăng lên 99% so với 1%, vấn đề trở nên nghiêm trọng hơn.

Trong nghiên cứu khoa học dữ liệu, khái niệm dữ liệu không cân bằng gắn liền với mục tiêu phân tích, bởi không phải mọi trường hợp mất cân bằng đều gây hại. Vấn đề chỉ trở nên đáng chú ý khi lớp thiểu số mang ý nghĩa quan trọng hơn về mặt nghiệp vụ hoặc khoa học, chẳng hạn như phát hiện bệnh hiếm hay gian lận tài chính.

Cơ sở lý thuyết và bối cảnh nghiên cứu

Cơ sở lý thuyết của dữ liệu không cân bằng xuất phát từ thống kê và lý thuyết học máy, nơi giả định ngầm về phân bố dữ liệu thường là tương đối đồng đều hoặc đại diện cho quần thể. Khi giả định này bị phá vỡ, các ước lượng thống kê và quá trình học tham số của mô hình có thể bị sai lệch.

Trong học máy giám sát, đặc biệt là phân loại nhị phân và đa lớp, dữ liệu không cân bằng được xem là một vấn đề ở mức dữ liệu hơn là thuật toán. Nhiều thuật toán tối ưu hóa hàm mất mát toàn cục, dẫn đến việc ưu tiên dự đoán đúng lớp đa số để giảm sai số tổng thể, ngay cả khi điều đó làm giảm hiệu quả trên lớp thiểu số.

Bối cảnh nghiên cứu dữ liệu không cân bằng mở rộng mạnh mẽ từ cuối thập niên 1990, khi các ứng dụng thực tế ngày càng nhiều và dữ liệu lớn trở nên phổ biến. Các tổng quan học thuật cho thấy vấn đề này xuất hiện xuyên suốt trong khai phá dữ liệu, nhận dạng mẫu và trí tuệ nhân tạo. Một số hướng tiếp cận lý thuyết tập trung vào:

  • Ảnh hưởng của phân bố lớp đến hàm mục tiêu.
  • Thiên lệch thống kê trong quá trình huấn luyện.
  • Mối quan hệ giữa dữ liệu không cân bằng và rủi ro dự đoán.

Biểu hiện và đặc điểm của dữ liệu không cân bằng

Biểu hiện rõ ràng nhất của dữ liệu không cân bằng là sự chênh lệch lớn về số lượng mẫu giữa các lớp. Điều này có thể được quan sát trực tiếp thông qua thống kê mô tả hoặc biểu đồ phân bố lớp. Trong nhiều tập dữ liệu thực tế, lớp thiểu số chỉ chiếm một tỷ lệ rất nhỏ so với tổng số quan sát.

Mức độ không cân bằng thường được mô tả bằng tỷ lệ giữa lớp đa số và lớp thiểu số. Tỷ lệ này không chỉ ảnh hưởng đến việc huấn luyện mô hình mà còn đến cách diễn giải kết quả. Một mô hình đạt độ chính xác cao có thể hoàn toàn bỏ qua lớp thiểu số mà không bị phản ánh qua chỉ số accuracy.

Bảng dưới đây minh họa các mức độ không cân bằng thường gặp:

Tỷ lệ lớp đa số : lớp thiểu số Mức độ không cân bằng Rủi ro phân tích
3 : 1 Nhẹ Ảnh hưởng hạn chế
10 : 1 Trung bình Giảm hiệu quả lớp thiểu số
100 : 1 Nghiêm trọng Thiên lệch mô hình rõ rệt

Ngoài số lượng mẫu, dữ liệu không cân bằng còn có đặc điểm là sự khác biệt về phân bố đặc trưng giữa các lớp. Lớp thiểu số thường có độ đa dạng thấp hơn hoặc bị nhiễu nhiều hơn, khiến việc học ranh giới quyết định trở nên khó khăn.

Nguyên nhân hình thành dữ liệu không cân bằng

Dữ liệu không cân bằng có thể xuất phát từ bản chất của hiện tượng được nghiên cứu. Trong nhiều lĩnh vực, các sự kiện quan trọng lại hiếm khi xảy ra, chẳng hạn như lỗi hệ thống nghiêm trọng, bệnh hiếm hoặc hành vi gian lận. Khi thu thập dữ liệu phản ánh đúng thực tế, sự mất cân bằng là điều không thể tránh khỏi.

Một nguyên nhân khác đến từ quá trình thu thập và gán nhãn dữ liệu. Việc thu thập mẫu của lớp thiểu số thường tốn kém hơn, đòi hỏi chuyên môn cao hoặc gặp rào cản đạo đức và pháp lý, đặc biệt trong lĩnh vực y tế và tài chính. Điều này dẫn đến tập dữ liệu bị lệch ngay từ đầu.

Các nguyên nhân phổ biến có thể được phân loại như sau:

  • Bản chất hiếm gặp của hiện tượng mục tiêu.
  • Hạn chế về nguồn lực thu thập dữ liệu.
  • Chi phí và độ khó trong gán nhãn chính xác.

Việc hiểu rõ nguyên nhân hình thành dữ liệu không cân bằng có ý nghĩa quan trọng, vì nó ảnh hưởng trực tiếp đến lựa chọn chiến lược xử lý. Trong một số trường hợp, việc cố gắng cân bằng dữ liệu có thể làm sai lệch bản chất của bài toán nếu không được cân nhắc cẩn trọng.

Tác động đến mô hình học máy

Dữ liệu không cân bằng tác động trực tiếp đến quá trình huấn luyện và hành vi dự đoán của mô hình học máy. Phần lớn các thuật toán phân loại được thiết kế để tối ưu hóa hàm mất mát toàn cục, trong đó mỗi quan sát đóng góp như nhau. Khi lớp đa số chiếm ưu thế, mô hình có xu hướng học cách dự đoán lớp này để giảm sai số tổng thể, dẫn đến thiên lệch có hệ thống.

Hệ quả phổ biến là mô hình đạt độ chính xác tổng thể cao nhưng bỏ sót phần lớn các trường hợp thuộc lớp thiểu số. Trong các bài toán nhạy cảm, hiện tượng này có thể gây hậu quả nghiêm trọng, ví dụ bỏ sót ca bệnh hoặc không phát hiện gian lận. Do đó, đánh giá mô hình chỉ dựa trên accuracy là không phù hợp trong bối cảnh dữ liệu không cân bằng.

Các biểu hiện thường gặp của tác động này bao gồm:

  • Ranh giới quyết định bị đẩy lệch về phía lớp thiểu số.
  • Giảm khả năng khái quát hóa trên các sự kiện hiếm.
  • Tăng rủi ro thiên lệch khi triển khai thực tế.

Chỉ số đánh giá trong bối cảnh dữ liệu không cân bằng

Để phản ánh đúng hiệu quả của mô hình trên dữ liệu không cân bằng, cần sử dụng các chỉ số đánh giá tập trung vào lớp thiểu số và sự cân bằng giữa các loại lỗi. Precision và recall cho phép đo lường mức độ chính xác và khả năng phát hiện của mô hình đối với lớp quan tâm.

Chỉ số F1-score kết hợp precision và recall thông qua trung bình điều hòa, giúp cân bằng giữa hai khía cạnh này. Ngoài ra, các đường cong như ROC và Precision–Recall cung cấp cái nhìn toàn diện hơn về hiệu năng mô hình dưới nhiều ngưỡng quyết định khác nhau.

Các chỉ số thường được sử dụng gồm:

  • Precision, recall và F1-score.
  • ROC-AUC và PR-AUC.
  • Balanced accuracy và Matthews correlation coefficient.

Hướng dẫn thực hành và định nghĩa chi tiết các chỉ số này được trình bày tại scikit-learn – Model Evaluation.

Các phương pháp xử lý dữ liệu không cân bằng

Các phương pháp xử lý dữ liệu không cân bằng có thể được chia thành hai nhóm chính: tiếp cận ở mức dữ liệu và tiếp cận ở mức thuật toán. Tiếp cận ở mức dữ liệu tập trung vào việc điều chỉnh phân bố mẫu, trong khi tiếp cận ở mức thuật toán thay đổi cách mô hình học từ dữ liệu.

Lấy mẫu lại dữ liệu là chiến lược phổ biến nhất. Undersampling giảm số lượng mẫu của lớp đa số để cân bằng phân bố, trong khi oversampling tăng số lượng mẫu của lớp thiểu số. Phương pháp sinh mẫu tổng hợp như SMOTE tạo ra các mẫu mới dựa trên lân cận trong không gian đặc trưng.

Các hướng tiếp cận chính bao gồm:

  • Undersampling và oversampling.
  • Sinh mẫu tổng hợp như SMOTE và các biến thể.
  • Gán trọng số lớp hoặc điều chỉnh hàm mất mát.

Việc lựa chọn phương pháp phụ thuộc vào kích thước dữ liệu, mức độ không cân bằng và nguy cơ overfitting. Trong thực hành, các chiến lược này thường được kết hợp để đạt hiệu quả tối ưu.

Ứng dụng thực tiễn của dữ liệu không cân bằng

Dữ liệu không cân bằng xuất hiện trong nhiều lĩnh vực ứng dụng quan trọng. Trong tài chính, các giao dịch gian lận chỉ chiếm một tỷ lệ rất nhỏ so với tổng số giao dịch, nhưng lại mang ý nghĩa kinh tế lớn. Trong y tế, các bệnh hiếm gặp có tần suất thấp nhưng yêu cầu độ chính xác chẩn đoán cao.

Trong an ninh mạng, các cuộc tấn công hoặc xâm nhập thường hiếm so với lưu lượng bình thường, khiến bài toán phát hiện trở nên khó khăn. Tương tự, trong bảo trì dự đoán, lỗi nghiêm trọng của hệ thống xảy ra ít nhưng cần được dự báo sớm để tránh thiệt hại lớn.

Một số lĩnh vực ứng dụng tiêu biểu:

  • Phát hiện gian lận tài chính.
  • Chẩn đoán và sàng lọc bệnh.
  • Phát hiện xâm nhập và bất thường.
  • Dự báo lỗi và bảo trì hệ thống.

Hạn chế và thách thức nghiên cứu

Mặc dù đã có nhiều phương pháp xử lý, dữ liệu không cân bằng vẫn đặt ra thách thức đáng kể. Việc oversampling có thể dẫn đến overfitting, trong khi undersampling có nguy cơ làm mất thông tin quan trọng của lớp đa số. Sinh mẫu tổng hợp không phù hợp có thể tạo nhiễu và làm giảm chất lượng dữ liệu.

Một thách thức khác là khả năng tổng quát hóa khi triển khai mô hình trong môi trường thực tế, nơi phân bố dữ liệu có thể thay đổi theo thời gian. Điều này đòi hỏi các phương pháp đánh giá và cập nhật mô hình liên tục.

Các hướng nghiên cứu hiện nay tập trung vào:

  • Thiết kế hàm mất mát thích ứng với phân bố lớp.
  • Kết hợp học sâu và học không giám sát.
  • Đánh giá mô hình trong bối cảnh phân bố thay đổi.

Tài liệu tham khảo

Các bài báo, nghiên cứu, công bố khoa học về chủ đề dữ liệu không cân bằng:

Dự đoán sớm và chính xác bệnh tiểu đường dựa trên lựa chọn đặc trưng FCBF và SMOTE Dịch bởi AI
Springer Science and Business Media LLC - - Trang 1-9 - 2021
#bệnh tiểu đường #máy học #lựa chọn đặc trưng #hồi quy logistic #rừng ngẫu nhiên #dữ liệu không cân bằng
Tăng trưởng năng suất trong vận tải xe buýt hành khách: Mô hình thành phần lỗi dị bộ với dữ liệu bảng không cân bằng Dịch bởi AI
Empirical Economics - Tập 21 - Trang 557-573 - 1996
#tăng trưởng năng suất #xe buýt hành khách #phương pháp kinh tế lượng #kỹ thuật #quy mô kinh tế #Ấn Độ
Một nghiên cứu chung về các phương pháp xử lý sai phân loại và tập dữ liệu không cân bằng ảnh hưởng đến hiệu suất của mạng nơ-ron Dịch bởi AI
Neural Computing and Applications - Tập 18 - Trang 689-706 - 2009
#mạng nơ-ron #chi phí sai phân loại không đối xứng #dữ liệu không cân bằng #hiệu suất phân loại #quy tắc quyết định Bayes
Hệ thống lai cho khai thác dữ liệu không cân bằng Dịch bởi AI
Microsystem Technologies - Tập 26 - Trang 3043-3047 - 2019
Tổng số: 4   
  • 1